Hãy tưởng tượng một thế giới mà trí tuệ nhân tạo không chỉ nhận dạng một cảnh hoàng hôn, mà còn tạo ra một bức tranh từ khoảng trống. Đây là sự thay đổi mô hình từ mô hình phân biệt—những mô hình tập trung vào tính toán xác suất $p(output|input)$ để gán nhãn dữ liệu hiện có—đến với lĩnh vực rộng lớn của Trí tuệ nhân tạo sinh tạo. Chúng ta đang tiến xa hơn khỏi việc vẽ biên giới trong quá khứ để hướng tới việc mô hình hóa chính phân bố dữ liệu nền tảng.
Định nghĩa bản đồ kiến trúc
Phân loại của chúng ta bị chi phối bởi ba chiến lược toán học khác nhau, mỗi chiến lược mang lại những ưu điểm độc đáo cho tổng hợp đa mô thức và tổng hợp hình ảnh:
- Mạng lưới đối kháng sinh tạo (GANs): Một cuộc đấu kịch tính giữa hai mạng nơ-ron— bộ sinh (kẻ giả mạo) và bộ phân biệt (thám tử). Cuộc tương tác tương hỗ làm cho bộ sinh tạo ra nội dung ngày càng khó phân biệt.
- Mô hình phân tán: Quá trình tìm kiếm trật tự trong hỗn loạn. Những mô hình này học bằng cách lần lượt thêm và loại bỏ nhiễu từ dữ liệu, cuối cùng nắm vững khả năng tạo ra các biểu diễn mạnh mẽ từ trạng thái tĩnh hoàn toàn.
- Transformer tự hồi quy: Kiến trúc sư của chuỗi. Các mô hình như Transformer tiền huấn luyện sinh tạo (GPT) hoạt động bằng cách dự đoán token tiếp theo dựa trên ngữ cảnh của tất cả những gì đã xảy ra trước đó, tạo ra các câu chuyện và cấu trúc nhất quán dài hạn.
Sự phối hợp kiến trúc
Những đột phá hiện đại hiếm khi sử dụng một trụ cột đơn lẻ một cách cô lập. Các hệ thống như Stable Diffusion sử dụng một Transformer để hiểu yêu cầu văn bản của bạn và một Phân tán quá trình để hiện thực hóa các pixel hình ảnh, thường tận dụng hiệu quả không gian tiềm ẩn được tìm thấy trong Mô hình tự mã hóa biến thiên (VAEs).